Warning: mkdir(): No space left on device in /var/www/tg-me/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/dsproglib/--): Failed to open stream: No such file or directory in /var/www/tg-me/post.php on line 50
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение | Telegram Webview: dsproglib/6422 -
Telegram Group & Telegram Channel
📌 Какой вектор лучше: Dense vs Multi-vector embeddings

Раньше хватало одного эмбеддинга на документ. Сейчас — этого уже мало. Нужна структура.

📍 Dense-векторы (single vector per doc):
— быстрые
— экономные по памяти
— слабо улавливают контекст
— «плавают» при сложных запросах
👉 подходят для простого поиска

📍 Multi-vector (late interaction):
— вектор на каждый токен
— сравниваются токены запроса и документа напрямую
— лучше качество на сложных задачах
— выше требования к хранилищу
👉 баланс между скоростью и точностью

📍 Late interaction ≈ золотая середина:
— быстрее, чем cross-encoders
— точнее, чем dense-векторы

📍 Примеры моделей:
— ColBERT — для текстов
— ColPali — multimodal: текст + PDF как картинки
— ColQwen — как ColPali, но на Qwen2 (Apache 2.0, компактнее)

Если вы работаете с PDF-документами (таблицы, графики, изображения) — мультивекторные модели решают большинство проблем без «чaнкинга» и костылей.

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/dsproglib/6422
Create:
Last Update:

📌 Какой вектор лучше: Dense vs Multi-vector embeddings

Раньше хватало одного эмбеддинга на документ. Сейчас — этого уже мало. Нужна структура.

📍 Dense-векторы (single vector per doc):
— быстрые
— экономные по памяти
— слабо улавливают контекст
— «плавают» при сложных запросах
👉 подходят для простого поиска

📍 Multi-vector (late interaction):
— вектор на каждый токен
— сравниваются токены запроса и документа напрямую
— лучше качество на сложных задачах
— выше требования к хранилищу
👉 баланс между скоростью и точностью

📍 Late interaction ≈ золотая середина:
— быстрее, чем cross-encoders
— точнее, чем dense-векторы

📍 Примеры моделей:
— ColBERT — для текстов
— ColPali — multimodal: текст + PDF как картинки
— ColQwen — как ColPali, но на Qwen2 (Apache 2.0, компактнее)

Если вы работаете с PDF-документами (таблицы, графики, изображения) — мультивекторные модели решают большинство проблем без «чaнкинга» и костылей.

Библиотека дата-сайентиста #буст

BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение




Share with your friend now:
tg-me.com/dsproglib/6422

View MORE
Open in Telegram


Библиотека data scientist’а | Data Science Machine learning анализ данных машинное обучение Telegram | DID YOU KNOW?

Date: |

How to Use Bitcoin?

n the U.S. people generally use Bitcoin as an alternative investment, helping diversify a portfolio apart from stocks and bonds. You can also use Bitcoin to make purchases, but the number of vendors that accept the cryptocurrency is still limited. Big companies that accept Bitcoin include Overstock, AT&T and Twitch. You may also find that some small local retailers or certain websites take Bitcoin, but you’ll have to do some digging. That said, PayPal has announced that it will enable cryptocurrency as a funding source for purchases this year, financing purchases by automatically converting crypto holdings to fiat currency for users. “They have 346 million users and they’re connected to 26 million merchants,” says Spencer Montgomery, founder of Uinta Crypto Consulting. “It’s huge.”

Start with a fresh view of investing strategy. The combination of risks and fads this quarter looks to be topping. That means the future is ready to move in.Likely, there will not be a wholesale shift. Company actions will aim to benefit from economic growth, inflationary pressures and a return of market-determined interest rates. In turn, all of that should drive the stock market and investment returns higher.

Библиотека data scientist’а | Data Science Machine learning анализ данных машинное обучение from hk


Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
FROM USA